Rows: 560 Columns: 60
── Column specification ────────────────────────────────────────────────────────
Delimiter: ","
chr (4): wandCore, sex, bloodStatus, house
dbl (56): id, course, result, Defence against the dark arts exam, Flying exa...
ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
При выполнении задания использовался пакет ggsignif. Расширение представляет собой простой способ определения и визуализации статистической значимости различий двух групп. На графике это отображается с помощью скобок, соединяющих интересующие группы с указание значения уровня статистической значимости (в числовой или иной форме).
В домашнем задании №1 мы подробно анализировали распеределения баллов по экзамену по зельеварению у студентов разного происхождения. С помощью данного пакета мы можем статистически уточнить различия между группами и визуализировать это на графике.
В данном случае, на графике ‘Сравнение баллов по зельеварению у студентов разного происхождения’ с помощью теста Вилкоксона сравниваются две группы: маглорожденные - полукровки и маглорожденные - чистокровки. В результате, прямо на графике с помощью автоматического отображения p-value мы показываем значимость различий распределений двух групп (т.к. в обоих случаях p<0.05). Комбинируя значения p и распределение значений, отображаемое боксплотами, мы можем говорить, что маглорожденные студенты получали отметки ниже в сравнении с полукровками и чистокровками.
На графике ‘Сравнение итоговых баллов студентов Хогвартса’ в качестве примера отображены дополнительные возможности пакета. А именно: совместимость пакета с фасетированием, ручное определение формы выводимых результатов теста, ориентацию скобок. Исходя из графика (хотя исходно также очень хорошо было видно) значимые статистические различия между распределениями баллов мальчиков и девочек наблюдаются только у Слизерина, при этом по графику видно, что баллы выше получали девочки.
hogwarts %>%#упорядочиваем переменную происхожденияmutate(bloodStatus =factor(bloodStatus, level =c ('half-blood', 'muggle-born', 'pure-blood'))) %>%ggplot(aes(x = bloodStatus, y =`Potions exam`))+geom_boxplot(aes(fill = bloodStatus),colour ='grey40', alpha =0.7)+#функция пакета ggsignif#функция по умолчанию использует wilcox.testgeom_signif(comparisons =list(c('muggle-born', 'half-blood'),c('muggle-born', 'pure-blood')), textsize =5,#можем задать расположение скобок по оси уy_position =100.5) +labs(title ='Сравнение баллов по зельеварению у студентов разного происхождения',subtitle ='Сравнение по происхождению: Тест Манна-Уитни',x =NULL,y ='Балл за экзамен' )+scale_fill_manual(values = bloodStatus_values)+scale_x_discrete(labels = bloodStatus_labels)+scale_y_continuous(breaks =seq(0,100,10))+coord_cartesian(ylim =c(0, 110))+theme(plot.title =element_text(hjust =0.5, size =15 ),plot.subtitle =element_text(hjust =0.5, size =12, colour ='grey20'),axis.text.x =element_text(color ="black", size =12),axis.text.y =element_text(color ="black", size =10),axis.title =element_text(size =13),legend.position ='none',plot.caption =element_text(size =8, colour ='grey25') )
hogwarts %>%ggplot(aes(y = sex, x = result))+geom_boxplot(aes(fill = house))+geom_signif(comparisons =list(#записываем сравниваемые группы один раз, но после фасетирования в каждой фасете с соотвествующими группами будет проведен свой статистический анализc("female", "male")), textsize =4,#можем задать в каком виде отобразиться значение р, при = TRUE (c("***"=0.001, "**"=0.01, "*"=0.05)). Также можно задать свои градации как в данном случаеmap_signif_level =function(p) {ifelse(p<0.05, 'значимо', 'незначимо')},#также можно задать ориентацию расположения скобокorientation ='y' )+facet_grid(house~.,labeller =labeller(house = house_names))+labs(title ='Сравнение итоговых баллов студентов Хогвартса',subtitle ='Сравнение по полу: Тест Манна-Уитни',x ='Количество баллов',y =NULL)+scale_fill_manual(values = house_colours,labels = house_names)+scale_x_continuous(breaks =seq(-250,250,50))+scale_y_discrete(labels = sex_names)+coord_cartesian(xlim =c(-250, 310))+theme(plot.title =element_text(hjust =0.5, size =15),plot.subtitle =element_text(hjust =0.5, size =12, colour ='grey20'),legend.position ='none',axis.text.y =element_text(colour ='black', size =11),axis.text.x =element_text(colour ='black', size =10) )
2
Treemap позволяет отобразить иерархию категориальной переменной. Здесь площадь каждого прямоугольника пропорцианально соответсвует доли этого варианта признака относительно всей выборки.
Mosaic Plot позволяет визуально сравнить состав нескольких групп. График разделен на столбцы, ширина которых указывает на относительную долю признака от общего количества, высота прямоугольников в группе - доли этого подпризнака внутри группирующего, площадь прямоугольников также как и у Treemap соответствует доли этих пересекающихся признаков от общего числа выборки.
Таким образом, TreeMap подходит для случаев, когда нужно визуализировать иерархию признака и относительные доли групп внутри признака. Mosaic Plot лучше использовать для визуального сравнения подгрупп признака и выявления взаимосвязей.
В интерпретации говорится, что график отображает средние, при этом тип графика – столбчатая диаграмма, что не является корректным типом графика для визуализации средних;
Утверждается, что балл «достоверно снижался», но не приводятся критерии достоверности;
График говорит об отрицательной корреляции среднего балла учащегося и количеству прошедших недель учебы, но никак не описывает мотивацию преподавателей и их переход от мотивации учеников к репрессивным действиям, поэтому конечный вывод по данным некорректен.
В качестве вывода против данной теории можно сказать о нелинейности снижения среднего балла. Т.к. столбцы отсортированы не по количеству недель, а по уменьшению среднего балла на неделе, складывается ложный вывод, что увеличение количества недель = уменьшение балла. На деле мы наблюдаем (из неполных данных графика), что средний балл, хоть и действительно во второй половине учебы (неделях 18, 27 и 36) ниже балла на неделях из первой половины учебного года, мы не наблюдаем такой уж прямо пропорциональной зависимости признаков. Так, на 8 неделе средний балл ниже, чем на 11, и оба значения ниже среднего на 14 неделе. Если бы учителя действительно уставали, они бы не завышали баллы на 14 неделе, предварительно занизив их на 8 и 11. Возможно, такие зависимости связаны с изменяемостью сложности домашнего задания и наличию происшествий в школе (нападениями Темного Лорда или матчем по квиддичу);
Интерпретация написана в ненаучном стиле, ближе концу можно судить об агрессивном отношении автора к преподавателям, что ставит под сомнение объективность выводов.
Неверные стороны визуализации данных с помощью графика:
Визуально неприятен. Задний фон отвлекает от данных графика. Много ярких плохо сочетаемых цветов. Нечитаемые надписи. Рассмотреть какие-то данные можно только при большом увеличении картинки;
Некорректные подписей осей, название и описания легенды, а также названия самого графика не дают нам предсталения о данных на соответсвующих частях графика;
В интерпретации и названии говорится, о визуализации среднего балла по каждой неделе обучения, но из 40 недель представлены 5, почему происходит таким образом не поясняется;
Сетка графика избыточно подробная, из-за чего нечитабельна. Поэтому по графику нельзя сказать ни о значении средних, ни о корректности интервалов между ними (т.к. при разнице осечек сетки между средними, высота графиков будет меняться, а с ними и выводы по графику). Также сетка не затрагивает все значения средних, так, даже при читабельности оси у, нельзя сказать, какое среднее на 14 и 36 неделях.
Неясна цель цветовых делений столбцов, интервалов разброса у значений средних и наличие двух легенд;